草庐IT

Java Quartz 作业持久化

全部标签

hadoop - Oozie s3 作为作业文件夹

当从s3提供workflow.xml时,Oozie失败并出现以下错误,但从HDFS提供workflow.xml时同样有效。同样适用于早期版本的oozie,与4.3版本的oozie相比有什么变化吗?环境:HDP3.1.0Oozie4.3.1oozie.service.HadoopAccessorService.supported.filesystems=*Job.propertiesnameNode=hdfs://ambari-master-1a.xdata.com:8020jobTracker=ambari-master-2a.xdata.com:8050queue=default#O

java - 管道 hadoop mapreduce 作业

我有五个mapreduce,我分别运行它们。我想将它们全部通过管道传输。因此,一项工作的输出转到下一项工作。目前,我编写了shell脚本来执行它们。有没有办法用java写这个?请举例说明。谢谢 最佳答案 您可能会发现JobControl是将这些作业链接在一起的最简单方法。对于更复杂的工作流程,我建议查看Oozie. 关于java-管道hadoopmapreduce作业,我们在StackOverflow上找到一个类似的问题: https://stackoverf

hadoop - 为 map-only 作业运行 Hadoop Map Reduce 时出错

我想在HadoopMapReduce中运行一个仅限map的作业,这是我的代码:Configurationconf=newConfiguration();Jobjob=newJob(conf);job.setJobName("import");job.setMapperClass(Map.class);//CustomMapperjob.setInputFormatClass(TextInputFormat.class);job.setNumReduceTasks(0);TextInputFormat.setInputPaths(job,newPath("/home/jonathan/i

hadoop - 使用 MR1 CDH4 运行简单的 MapReduce Streaming 作业失败

我有一个最近从CDH3升级到CDH4的集群。Hive目前运行良好。然而,我似乎无法让它运行简单的MRStreaming作业(版本1)。Yarn已安装但未使用。下面是命令行输入输出$/usr/lib/hadoop/bin/hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.0.0.jargrep-input/input-output/output/'dfs[a-z.]+'检查日志显示:packageJobJar:[/tmp/hadoop-hdfs/hadoop-

hadoop - 使用 jar 选项将作业提交到不同的公平调度程序池

我是Hadoop的新手,尝试在运行时使用hadoopjar选项将同一用户的不同作业提交到公平调度程序的不同池。基于http://osdir.com/ml/hive-user-hadoop-apache/2009-03/msg00162.html中的解决方案,我在运行作业时使用了-D选项。具体来说,我运行了命令:bin/hadoopjarhadoop-examples-1.0.4.jargrepinputoutput'dfs[a-z.]+'-Dpool.name=sample_pool我可以在作业跟踪器调度程序页面中看到池,但作业仍提交给用户池。我发现jar选项不支持-D选项:http:

hadoop - 关于 Pig 作业 Jar 文件

我正在使用嵌入式Pig来实现图形算法。它在本地模式下工作正常。但是在一个完全分布式的Hadoop集群中,总是有如下错误信息:(请看最后几行)2012-11-2322:00:00,651[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler-creatingjarfileJob4116346741117365374.jar2012-11-2322:00:09,418[main]INFOorg.apache.pig.backend.hadoop.executionen

http - hadoop 映射作业中的 HTTP 请求问题

我有一个过程,我在其中聚合数据并通过map作业中的httpPOST发送请求。我必须等待结果。不幸的是,我在使用这种方法时遇到了问题。这样做时,发送过程中会丢失数据。我们设法调查了这个问题,以至于我们知道通信“破坏”了套接字,因此数据丢失了。有没有人有通过映射器执行httpPOST请求的经验以及需要注意什么?一些示例代码;映射器:publicvoidmap(finalLongWritablekey,finalTextvalue,Contextcontext)throwsIOException{StringsomeData=value.toString();buffer.add(someD

hadoop如何从 map 作业生成输入

我需要Map作业生成一组输入记录,这些记录应该被馈送到Map作业(通过JobTracker?)。我想不出解决办法,需要你的帮助。更多详情:我打算写网络爬虫。初始根级网页将输入到mapreduce作业。Mapper/reducer将获取网页并从该页面收集链接。这些链接应被视为mapreduce作业的输入。所以我想将这些链接推送到jobtracker,以便可以像对第一个根节点所做的那样处理它们。我们可以添加一些终止条件(例如链接正则表达式匹配)。如果正则表达式匹配,则它不会通过map(或reduce)任务返回到jobtracker。 最佳答案

java - 使用 Hadoop,如何更改给定作业的映射器数量?

因此,我有两个作业,作业A和作业B。对于作业A,我希望每个节点最多有6个映射器。但是,工作B有点不同。对于作业B,我只能在每个节点上运行一个映射器。这样做的原因并不重要——我们只是说这个要求是没有商量余地的。我想告诉Hadoop,“对于作业A,每个节点最多安排6个映射器。但是对于作业B,每个节点最多安排1个映射器。”这可能吗?我能想到的唯一解决办法是:1)在hadoop主文件夹之外有两个文件夹,conf.JobA和conf.JobB。每个文件夹都有自己的mapred-site.xml副本。conf.JobA/mapred-site.xml的mapred.tasktracker.map.

hadoop - 减少 HFileOutputFormat 中挂起的作业

我正在使用Hbase:0.92.1-cdh4.1.2,和Hadoop:2.0.0-cdh4.1.2我有一个mapreduce程序,它将在集群模式下使用HFileOutputFormat将数据从HDFS加载到HBase。在那个mapreduce程序中,我使用HFileOutputFormat.configureIncrementalLoad()批量加载800000条记录7.3GB大小的数据集运行良好,但900000条记录的8.3GB数据集无法运行。在8.3GB数据的情况下,我的mapreduce程序有133个maps和一个reducer,所有maps都成功完成。我的reducer状态一直